# Arbres de Décision

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Problème de Classification

Supposons que l'on cherche à résoudre un problème de classification, c'est à dire qu'à partir d'une liste d'informations sur un objet, on chercher à en déterminier une caractéristique.

En cours, on a vu un exemple où l'on cherchait à reconnaître des fruits.
On avait quelques caractéristiques, comme la couleur, la présence d'un noyau et le diamètre, à partir desquels on cherchait à deviner quel fruit c'était.

**Question.** Donnez un autre exemple de problème de classification.

Réponse :

## Arbres de Décision

Les arbres de décision essaient de reproduire un raisonnement logique à propos des données.
Pour reconnaître notre fruit, une démarche rationnelle serait de se poser des questions pour restreindre les possibilités : 

* est-ce qu'il est jaune ? 
* est-ce que son diamètre est plus grand que 5 ?

et ce jusqu'à ce qu'on arrive à trouver notre réponse...

### Impureté d'un Ensemble de Labels

On a vu en cours qu'on pouvait choisir une question en utilisant le score Gini, qui mesure "l'impureté" d'un ensemble.

Soit un ensemble $y$ dont les éléments prennent $K$ valeurs différentes $c_1, \dots c_K$.
Alors le score Gini de $y$ est :

$$ Gini(y) = \sum_{c_k} p_k (1 - p_k), $$

où $p_k = \frac{\text{nombre d'éléments de } y \text{ valant } c_k}{\text{taille de } y}$ est la probabilité d'associer la bonne valeur à $s_i$ si on lui donne une valeur tirée uniformément au hasard dans $S$.

Par exemple, pour l'ensemble `y = ["Pomme", "Pomme", "Banane", "Citron", "Cerise"]`, le score Gini est :
$$
\begin{align}
Gini(y) & = p_{Pomme} (1 - p_{Pomme}) + p_{Banane} (1 - p_{Banane}) + p_{Citron} (1 - p_{Citron}) + p_{Cerise} (1 - p_{Cerise}) \\
& = 2/5 \times 3/5 + 1/5 \times 4/5 + 1/5 \times 4/5 + 1/5 \times 4/5 \\
& = 0.72
\end{align}
$$

La fonction suivante permet de calculer le score Gini d'un ensemble :

In [None]:
def gini(S):
 
 g = 1
 counts = np.unique(S, return_counts=True)
 
 for i in range(len(counts[0])):
 g -= (counts[1][i] / len(S)) ** 2
 
 return g

**Question.** Vérifier la valeur Gini de l'ensemble `y = ["Pomme", "Pomme", "Banane", "Citron", "Cerise"]` ci-dessus à l'aide de la fonction `gini`.

In [None]:
y = ["Pomme", "Pomme", "Banane", "Citron", "Cerise"]

# calculer le score de y

**Question.** Quand est-ce que le score Gini d'un ensemble vaut $0$ ?

Réponse :

### Application aux Arbres de Décision

On a donc maintenant une métrique que nous permet de mesurer à quel point un ensemble est "pur", c'est à dire à quel point il est loin d'un ensemble où tous les éléments ont la même valeur.

Ainsi, on peut évaluer la réponse à une question en utilisant cette mesure d'impureté.
Supposons que l'on ait un ensemble $S$, et qu'on pose une question, par exemple "est-ce que la couleur est jaune ?".

Cette question divise l'ensemble $S$ en deux ensembles : $S_{True}$ les valeurs qui correspondent à la couelur Jaune, et $S_{False}$ les autres.
On peut alors définir le score Gini de cette partition de $S$ :

$$ Gini(S_{True}, S_{False}) = \frac{|S_{True}|}{|S|} Gini(S_{True}) + \frac{|S_{False}|}{|S|} Gini(S_{False}), $$

dont l'idée est simplement de faire une moyenne pondérée des scores Gini de chacun des sous-ensembles obtenus.

Ce score mesure la qualité de la division de $S$ opérée par notre question.
Si les scores Gini de $S_{True}$ et $S_{False}$ sont nuls, cela signifie que tous les éléments de $S_{True}$ ont la même valeur, et de même pour $S_{False}$.

Donc, si le score Gini de $(S_{True}, S_{False})$ est nul, cela signifie que la division opérée par notre question est parfaite : tous les éléments de $S_{True}$ ont la même valeur, et tous ceux de $S_{False}$ également (mais les valeurs des deux ensembles peuvent être différentes).

Par exemple, avec les données suivantes :

| Agrume | Diamètre | Noyau | Fruit |
| :------------: | :----------: | :----------: | :----------: |
| False | 5 | False | Pomme
| False | 5 | False | Pomme
| False | 3 | False | Banane
| True | 5 | False | Citron
| False | 2 | True | Cerise

Si l'on pose la question "est-ce que le diamètre est plus grand que 5 ?", on divise nos fruits en deux catégories :
* $y_{\ge 5} = [Pomme, Pomme, Citron]$, les fruits dont le diamètre est plus grand que $5$ ;
* $y_{< 5} = [Banane, Cerise]$, les autres fruits.

Et le score Gini de l'ensemble diminue. En effet, on a vu que l'ensemble complet a un score de $0.72$, mais une fois découpé en deux, le score devient :
$$ Gini(y_{\ge 5}, y_{> 5}) = \frac{3}{5} Gini(y_{\ge 5}) + \frac{2}{5} Gini(y_{< 5}) = 0.46, $$

et le score a donc bien baissé.

Cela nous permet de différentier une "bonne" d'une "mauvaise" question : une bonne question est une question pour laquelle le score Gini diminue beaucoup. La **meilleure** question est celle qui induit la plus grande diminution de ce score.

### Expériences sur les Arbres de Décision

Les arbres de décision sont implémentes dans la librairie `sklearn`.
La cellule de code suivant crée un arbre de décision, puis l'entraîne sur le dataset ci-dessus.

La méthode `fit` permet d'entraîner un arbre de décision, où les questions posées dans chacun des sommets sont choisies comme minimisant le score Gini.

In [None]:
from sklearn import tree

## données
# features
X = [
 [False, 5, False],
 [False, 5, False],
 [False, 3, False],
 [True, 5, False],
 [False, 2, True],
]
# labels
y = ["Pomme", "Pomme", "Banane", "Citron", "Cerise"]

# arbre de décision
clf = tree.DecisionTreeClassifier()

# entrainement de l'arbre de décision sur le dataset (X, y)
clf.fit(X, y)

La librairie sci-kit learn (`sklearn`) implémente tout un tas d'algorithmes de machine learning.
Ils fonctionnent tous de la même manière :

* on crée un objet correspondant à notre modèle (`clf = tree.DecisionTreeClassifier()` ici) ;
* on entraîne notre modèle sur un jeu de données avec la méthode `fit` ;
* on peut prédire les labels sur de nouveaux points avec la méthode `predict`.

Vérifions que notre arbre de décision classifie correctement nos points.
Pour cela, on utilise la méthode `predict` :

In [None]:
clf.predict(X)

Ce sont bien les mêmes valeurs que celles que l'on connaissait.

Regardons la tête de notre arbre de décision :

In [None]:
tree.plot_tree(clf);

**Question.** À quelle classe correspond chacune des feuilles de cet arbre ? Que constatez-vous sur le score Gini ?

Réponse :

### Performances en Test

Bon, notre jeu de données est quand même un peu petit pour l'instant...

Regardons ce qu'il se passe avec un jeu de données un petit peu plus compliqué :

In [None]:
from sklearn.datasets import make_moons

Xmoons, ymoons = make_moons(n_samples=100, noise=0.3, random_state=42)

plt.scatter(Xmoons[:, 0], Xmoons[:, 1], c=ymoons)

**Question.** Entraînez un arbre de décision sur ce jeu de données, et affichez un graphe comme celui ci-dessus mais où les couleurs sont les valeurs prédites par l'arbre de décision.

In [None]:
clf = tree.DecisionTreeClassifier()

# entraînez le classifieur sur les données ci-dessus

On pourrait à première vue penser que notre classifieur est bon car il prédit les bonnes valeurs des points.
Mais regardons un peu plus en détails les zonnes qui correspondent à chacune des couleurs.

Sur le dessin suivant, les zones colorées en bleu sont celles où notre arbre considère que les points sont violets, et celles en vert celles où les points sont jaunes.

In [None]:
xx, yy = np.meshgrid(np.arange(-2, 3, 0.1), np.arange(-2, 2, 0.01))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.figure(figsize=(10,10))
plt.contourf(xx, yy, Z, alpha=1, levels=1,corner_mask=False)

ypred = clf.predict(Xmoons)
plt.scatter(Xmoons[:, 0], Xmoons[:, 1], c=ypred)

**Question.** Que pensez-vous du résultat ? Pensez-vous que les prédictions de notre arbre de décision seront toujours bonnes ?

Réponse :

### Overfitting

Le phénomène que vous observez ci-dessus s'appelle l'**overfitting** : notre classifieur apprend par coeur les données sur lesquelles il a été entraîné, ce qui rend sa précision parfaite sur les données d'entraînement, mais qui ne permet pas de faire des prédictions fiables.

Pour détecter l'overfitting, on peut découper notre dataset d'entraînement en deux : une partie qui servira à entraîner notre classifieur, et une partie qui servira à vérifier s'il fait de bonnes prédictions sur des points qu'il n'a jamais vus.

On parle alors de **dataset d'entraînement** et de **dataset de test**.
On peut découper notre base de données $(X, y)$ en $(X_{train}, y_{train})$ et $(X_{test}, y_{test})$.
La fonction `train_test_split` de `sklearn` permet de faire cela.

Commençons par générer un jeu de données de classification avec trois classes, vingt features et mille exemples.

In [None]:
from sklearn.datasets import make_classification

# un jeu de données de classification
X, y = make_classification(n_samples=1000, n_features=20, n_classes=3,
 n_redundant=0, n_repeated=0, n_informative=20, 
 random_state=42, flip_y=0.1)


On peut afficher notre jeu de données, pour voir à quoi il ressemble.
Bien sûr, comme il y a 20 variables, on ne peut pas l'afficher comme le dataset d'au dessus...

Affichons le sous la forme d'un tableau.
Pour cela, on peut utiliser la librairie `pandas`.
C'est une librairie très complète pour travailler avec des données, même si l'on ne va pas vraiment s'en servir ici, je vous laisse aller regarder ce qu'on peut faire avec. :)

In [None]:
pd.DataFrame(X)

On peut maintenant découper ce dataset en deux ensembles, un ensemble d'entraînement et un ensemble de test :

In [None]:
from sklearn.model_selection import train_test_split

# on découpe notre jeu de données
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=42)

# on entraine un arbre de décision sur le dataset d'entrainement
clf = tree.DecisionTreeClassifier()
clf.fit(Xtrain, ytrain)

In [None]:
pd.DataFrame(Xtrain)

In [None]:
pd.DataFrame(Xtest)

On voit que maintenant, notre ensemble d'entraînement contient trois quarts du dataset initial (750 points), et que l'ensemble de test contient le quart restant.

Regardons la précision de notre classifieur sur le dataset d'entraînement et sur le dataset de test :

In [None]:
print("Précision sur Xtrain :", np.mean(ytrain == clf.predict(Xtrain)))
print("Précision sur Xtest :", np.mean(ytest == clf.predict(Xtest)))

**Question.** Commentez.

Réponse :

Une façon d'essayer d'empêcher ce phénomène d'overfitting de se produire est de limiter le nombre de questions que l'arbre peut poser sur les données, c'est à dire de limiter la profondeur maximale de l'arbre.

Ainsi, il y a un équilibre à trouver :
* un arbre avec une profondeur trop limitée risque de ne pas classifier correctement le jeu de données, car il ne pose pas assez de questions pour diviser correctement le jeu de données ;
* un arbre avec une profondeur trop importante risque d'apprendre par coeur le jeu de données et donc de faire de moins bonnes prédictions sur des données qu'il ne connaît pas : on dit qu'il généralise mal.

**Question.** On peut fixer la profondeur maximale de l'arbre de décision avec le paramètre `max_depth` de `tree.DecisionTreeClassifier`. Faites varier ce paramètre et affichez la précision sur Xtrain et sur Xtest pour chacune des valeurs de ce paramètre.

Que constatez-vous ?

In [None]:
# faites varier le paramètre `max_depth` de tree.DecisionTreeClassifier et observez
# la précision sur les datasets d'entraînement et de test

Réponse :

### Random Forests

Comme vous venez de le constater, les arbres de décision ont une petite tendance à apprendre par coeur les données d'entraînement, et une façon de limiter cela est de limiter la profondeur de l'arbre.

Une autre approche, beaucoup plus utilisée en pratique, consiste à apprendre plusieurs arbres de décision différents sur le même jeu de données, puis de combiner les résultats de tous ces arbres.
Pour apprendre plusieurs arbres différents, on procède ainsi :
* on tire un sous ensemble de nos données ;
* on apprend un arbre de décision sur ce jeu de données,

et ce, un certain nombre (fixé) de fois.

Comme on apprend plusieurs arbres de décisions, on appelle le résultat (ie. l'ensemble d'arbres obtenus) une **forêt**, et comme on tire nos points au hasard, on parle de **forêt aléatoire** (random forest).

Ensuite, une bonne façon de combiner ces résultats est de faire un vote : chaque arbre prédit un certain label, et notre "forêt" renvoie le label qui a été le plus prédit par les arbres.
Cette idée s'appelle le "bagging" : c'est le fait de combiner des classifieurs afin de diminuer la variabilité des résultats, et donc, de limiter l'overfitting.

Entraînons un tel classifieur sur nos données :

In [None]:
# dans sklearn, les forêts aléatoires sont implémentées dans "RandomForestClassifier"
from sklearn.ensemble import RandomForestClassifier

# une forêt aléatoire de 100 arbres
rf_clf = RandomForestClassifier(n_estimators=100)

# on entraîne notre forêt sur notre dataset d'entraînement
rf_clf.fit(Xtrain, ytrain)

On peut accéder aux arbres de décision entraînés grâce à la variable `estimators_` :

In [None]:
rf_clf.estimators_

**Question.** Affichez le premier arbre de décision.

In [None]:
# affichez le premier arbre de décision (vous pouvez vous référer à une question précédente pour cela ;))

Regardons la précision des prédictions de notre forêt entraînée ainsi :

In [None]:
print("Précision sur Xtrain :", np.mean(ytrain == rf_clf.predict(Xtrain)))
print("Précision sur Xtest :", np.mean(ytest == rf_clf.predict(Xtest)))

**Question.** Que pensez-vous du résultat obtenu ? Comparez avec ceux obtenus à la question précédente.

Réponse :

**Question.** Calculez la précision moyenne des arbres de décision (stockés dans la variable `rf_clf.estimators_`). Pour cela, on itèrera sur la liste des arbres, et on calculera la précision que chaque arbre obtient.

Que pensez-vous du résultat ? Est-ce la même chose que le résultat de notre forêt aléatoire ?

In [None]:
# calculez la précision moyenne des arbres dans `rf_clf.estimators_`

Réponse :